智能论文笔记

UAV-based Visual Remote Sensing for Automated Building Inspection

Kushagra Srivastava , Dhruv Patel , Aditya Kumar Jha , Mohhit Kumar Jha , Jaskirat Singh , Ravi Kiran Sarvadevabhatla , Pradeep Kumar Ramancharla , Harikumar Kandath , K. Madhava Krishna

分类：计算机视觉 | 机器人

2022-09-27

与计算机视觉合并的基于无人机的遥感系统（UAV）遥感系统具有协助建筑物建设和灾难管理的潜力，例如地震期间的损害评估。可以通过检查来评估建筑物到地震的脆弱性，该检查考虑到相关组件的预期损害进展以及组件对结构系统性能的贡献。这些检查中的大多数是手动进行的，导致高利用人力，时间和成本。本文提出了一种通过基于无人机的图像数据收集和用于后处理的软件库来自动化这些检查的方法，该方法有助于估算地震结构参数。这里考虑的关键参数是相邻建筑物，建筑计划形状，建筑计划区域，屋顶上的对象和屋顶布局之间的距离。通过使用距离测量传感器以及通过Google Earth获得的数据进行的现场测量，可以验证所提出的方法在估计上述参数估算上述参数方面的准确性。可以从https://uvrsabi.github.io/访问其他详细信息和代码。

translated by 谷歌翻译

A real-time spatiotemporal AI model analyzes skill in open surgical videos

Emmett D. Goodman , Krishna K. Patel , Yilun Zhang , William Locke , Chris J. Kennedy , Rohan Mehrotra , Stephen Ren , Melody Guan , Maren Downing , Hao Wei Chen

分类：计算机视觉 | 人工智能

2021-12-14

开放程序代表全球手术的主要形式。人工智能（AI）有可能优化手术实践并改善患者结果，但努力主要集中在微创技术上。我们的工作通过策划，从YouTube，从YouTube，Open Surgical视频的最大数据集克服了培训AI模型的现有数据限制：1997年从50个国家上传的23个外科手术的视频。使用此数据集，我们开发了一种能够实时了解外科行为，手和工具的多任务AI模型 - 程序流程和外科医生技能的构建块。我们表明我们的模型推广了各种外科类型和环境。说明这种普遍性，我们直接应用了YouTube培训的模型，分析了在学术医疗中心前瞻性收集的开放式手术，并确定了与手动效率相关的外科技能的运动学描述符。我们的开放外科（AVOS）数据集和培训模式的注释视频将可用于进一步发展外科艾。

translated by 谷歌翻译

MVRackLay: Monocular Multi-View Layout Estimation for Warehouse Racks and Shelves

Pranjali Pathre , Anurag Sahu , Ashwin Rao , Avinash Prabhu , Meher Shashwat Nigam , Tanvi Karandikar , Harit Pandya , K. Madhava Krishna

分类：计算机视觉 | 机器人

2022-11-30

In this paper, we propose and showcase, for the first time, monocular multi-view layout estimation for warehouse racks and shelves. Unlike typical layout estimation methods, MVRackLay estimates multi-layered layouts, wherein each layer corresponds to the layout of a shelf within a rack. Given a sequence of images of a warehouse scene, a dual-headed Convolutional-LSTM architecture outputs segmented racks, the front and the top view layout of each shelf within a rack. With minimal effort, such an output is transformed into a 3D rendering of all racks, shelves and objects on the shelves, giving an accurate 3D depiction of the entire warehouse scene in terms of racks, shelves and the number of objects on each shelf. MVRackLay generalizes to a diverse set of warehouse scenes with varying number of objects on each shelf, number of shelves and in the presence of other such racks in the background. Further, MVRackLay shows superior performance vis-a-vis its single view counterpart, RackLay, in layout accuracy, quantized in terms of the mean IoU and mAP metrics. We also showcase a multi-view stitching of the 3D layouts resulting in a representation of the warehouse scene with respect to a global reference frame akin to a rendering of the scene from a SLAM pipeline. To the best of our knowledge, this is the first such work to portray a 3D rendering of a warehouse scene in terms of its semantic components - Racks, Shelves and Objects - all from a single monocular camera.

translated by 谷歌翻译

GLOBEM Dataset: Multi-Year Datasets for Longitudinal Human Behavior Modeling Generalization

Xuhai Xu , Han Zhang , Yasaman Sefidgar , Yiyi Ren , Xin Liu , Woosuk Seo , Jennifer Brown , Kevin Kuehn , Mike Merrill , Paula Nurius

分类：机器学习 | 人工智能

2022-11-04

Recent research has demonstrated the capability of behavior signals captured by smartphones and wearables for longitudinal behavior modeling. However, there is a lack of a comprehensive public dataset that serves as an open testbed for fair comparison among algorithms. Moreover, prior studies mainly evaluate algorithms using data from a single population within a short period, without measuring the cross-dataset generalizability of these algorithms. We present the first multi-year passive sensing datasets, containing over 700 user-years and 497 unique users' data collected from mobile and wearable sensors, together with a wide range of well-being metrics. Our datasets can support multiple cross-dataset evaluations of behavior modeling algorithms' generalizability across different users and years. As a starting point, we provide the benchmark results of 18 algorithms on the task of depression detection. Our results indicate that both prior depression detection algorithms and domain generalization techniques show potential but need further research to achieve adequate cross-dataset generalizability. We envision our multi-year datasets can support the ML community in developing generalizable longitudinal behavior modeling algorithms.

translated by 谷歌翻译

Ground then Navigate: Language-guided Navigation in Dynamic Scenes

Kanishk Jain , Varun Chhangani , Amogh Tiwari , K. Madhava Krishna , Vineet Gandhi

分类：计算机视觉

2022-09-24

我们在室外环境中自动驾驶的背景下研究了视觉和语言导航（VLN）问题。我们通过明确接地与Textual命令相对应的可通道区域来解决问题。在每个时间戳，该模型预测与中间或最终可通道区域相对应的分割掩码。我们的工作与VLN中的现有工作形成鲜明对比，VLN的现有工作将该任务置于节点选择问题，并且给定与环境相对应的离散连接图。我们不假定这种离散的地图的可用性。我们的工作朝着动作领域的连续性发展，通过视觉反馈提供了解释性，并允许在需要更精细的操作的命令上进行VLN，例如“两辆汽车之间的停车”。此外，我们提出了一种新型的元数据carla-nav，以允许有效的训练和验证。该数据集包括预录制的培训序列以及用于验证和测试的实时环境。我们提供广泛的定性和定量经验结果，以验证所提出的方法的功效。

translated by 谷歌翻译

Real-Time Heuristic Framework for Safe Landing of UAVs in Dynamic Scenarios

Jaskirat Singh , Neel Adwani , Harikumar Kandath , K. Madhava Krishna

分类：机器人

2022-09-11

我们生活的世界充满了技术，而每天都有无人机的进步和使用有效地增加。由于许多应用程序方案，在某些任务中，无人机容易受到外部干扰的影响，例如地面站的连通性丧失，安全任务，安全问题和与交货相关的任务。因此，根据情况，这可能会影响运营并导致无人机的安全着陆。因此，本文提出了一种在动态环境中安全着陆的启发式方法。这种方法的目的是检测安全的潜在降落区 - PLZ，并找出最适合降落的区域。最初，PLZ是通过通过Canny Edge算法处理图像来检测的，然后应用了直径估计值对于每个边缘最小的区域。比车辆间隙更高的斑点被标记为安全PLZ。在该方法的第二阶段中，计算了向PLZ移动的动态障碍的速度，并考虑到达到区域的时间。计算无人机的ETA并在无人机的下降期间，执行动态障碍物。在现实世界环境中测试的方法显示了现有工作的更好结果。

translated by 谷歌翻译

Vision Transformers and YoloV5 based Driver Drowsiness Detection Framework

Ghanta Sai Krishna , Kundrapu Supriya , Jai Vardhan , Mallikharjuna Rao K

分类：计算机视觉

2022-09-03

由于独特的驾驶特征，人类驾驶员具有独特的驾驶技术，知识和情感。驾驶员嗜睡一直是一个严重的问题，危害道路安全。因此，必须设计有效的嗜睡检测算法以绕过道路事故。杂项研究工作已经解决了检测异常的人类驾驶员行为的问题，以通过计算机视觉技术检查驾驶员和汽车动力学的正面面孔。尽管如此，常规方法仍无法捕获复杂的驾驶员行为特征。但是，以深度学习体系结构的起源，还进行了大量研究，以分析和识别使用神经网络算法的驾驶员的嗜睡。本文介绍了一个基于视觉变形金刚和Yolov5架构的新颖框架，以实现驾驶员嗜睡的识别。提出了定制的Yolov5预训练的结构，以提取面部提取，目的是提取感兴趣的区域（ROI）。由于以前的体系结构的局限性，本文引入了视觉变压器进行二进制图像分类，该二进制图像分类在公共数据集UTA-RLDD上经过训练和验证。该模型分别达到了96.2 \％和97.4 \％的培训和验证精度。为了进行进一步的评估，在各种光明情况下的39名参与者的自定义数据集上测试了拟议的框架，并获得了95.5 \％的准确性。进行的实验揭示了我们在智能运输系统中实用应用框架的重要潜力。

translated by 谷歌翻译

An approach to implement Reinforcement Learning for Heterogeneous Vehicular Networks

Bhavya Peshavaria , Sagar Kavaiya , Dhaval K. Patel

分类：机器学习

2022-08-26

本文介绍了基于多代理增强学习的频谱共享频谱共享的概念扩展到异质车辆网络（HETVNET）。在这里，多个车辆对车辆（V2V）链接了其他车辆对接口（V2I）以及其他网络的频谱。车辆网络中的快速变化环境限制了集中CSI并分配渠道的想法。因此，这里使用实施基于ML的方法的想法，以便可以在所有车辆中以分布式方式实施。这里的每个板载单元（OBU）都可以感觉到频道中的信号，并基于该信息运行RL以决定自主采用的频道。在这里，每个V2V链接将是MARL中的代理商。这个想法是训练RL模型，以使这些代理商可以协作而不是竞争。

translated by 谷歌翻译

HTML版本

A CNN-LSTM-based hybrid deep learning approach to detect sentiment polarities on Monkeypox tweets

Krishna Kumar Mohbey , Gaurav Meena , Sunil Kumar , K Lokesh

分类：计算机视觉 | 人工智能 | 机器学习

2022-08-25

人们最近开始通过社交网站上用户生成的多媒体材料来传达自己的思想和观点。此信息可以是图像，文本，视频或音频。近年来，这种模式的发生频率有所增加。 Twitter是最广泛使用的社交媒体网站之一，它也是最好的地点之一，可以使人们对与蒙基波疾病有关的事件有一种了解。这是因为Twitter上的推文被缩短并经常更新，这两者都促成了平台的角色。这项研究的基本目标是对人们对这种情况的存在的各种反应进行更深入的理解。这项研究重点是找出个人对猴蛋白酶疾病的看法，该疾病介绍了基于CNN和LSTM的混合技术。我们已经考虑了用户推文的所有三个可能的极性：正，负和中立。使用CNN和LSTM构建的架构来确定预测模型的准确性。推荐模型的准确性在Monkeypox Tweet数据集上为94％。其他性能指标（例如准确性，召回和F1得分）也用于测试我们的模型和最大程度和资源有效的方式。然后将发现与更传统的机器学习方法进行比较。这项研究的发现有助于提高对普通人群中蒙基托感染的认识。

translated by 谷歌翻译

Leveraging Distributional Bias for Reactive Collision Avoidance under Uncertainty: A Kernel Embedding Approach

Anish Gupta , Arun Kumar Singh , K. Madhava Krishna

分类：机器人

2022-08-05

许多测量机器人和动态障碍状态的商品传感器具有非高斯噪声特征。然而，许多当前的方法将运动和感知的潜在不确定性视为高斯，主要是为了确保计算障碍。另一方面，与非高斯不确定性一起工作的现有计划者不会阐明运动和感知噪声的分布特征，例如偏见以避免有效碰撞。本文通过将避免反应性碰撞解释为碰撞约束违规与Dirac Delta分布之间的分配匹配问题来填补这一空白。为了确保策划者的快速反应性，我们将每个分布嵌入重现Hilbert空间，并将分布匹配重新匹配，以最大程度地减少两个分布之间的最大平均差异（MMD）。我们表明，评估给定对照输入的MMD归结为仅矩阵矩阵产品。我们利用这种见解来开发一种简单的控制抽样方法，以避免动态和不确定的障碍。我们在两个方面推进了最新的。首先，我们进行了广泛的实证研究，以表明我们的计划者可以从样本级别的信息中推断出分布偏差。因此，它使用此见解来指导机器人良好的同型。我们还强调了基本不确定性的高斯近似如何失去偏置估计值，并引导机器人以高碰撞概率为不利状态。其次，我们显示了与以前的非参数和高斯近似反应性碰撞避免碰撞的碰撞方法的拟议分布匹配方法的切实比较优势。

translated by 谷歌翻译